Un modèle neuro markovien profond pour l'extraction de séquences dans des documents manuscrits
نویسندگان
چکیده
RÉSUMÉ. Dans cet article, nous proposons un système d’extraction de mots clés dans des documents manuscrits. Notre approche est basée sur la reconnaissance des lignes de texte à l’aide d’un modèle HMM capable de rejeter les mots n’appartenant pas à un lexique prédéfini. Afin d’être plus discriminant, nous avons remplacé les mélanges de gaussiennes des HMM par un réseau de neurones profond pour calculer les probabilités a posteriori des observations. Nous montrons sur la base de documents des compétitions ICDAR 2009 l’intérêt de notre approche d’extraction d’information par rapport à une stratégie basée sur la reconnaissance intégrale du document. Les résultats montrent également l’apport de l’architecture profonde par rapport aux mélanges de gaussiennes.
منابع مشابه
Un modèle pour la représentation des connaissances temporelles dans les documents historiques
Résumé : Traiter et publier les données des sciences historiques dans le web sémantique constitue un défi intéressant où la représentation des aspects temporels joue un rôle clé. Nous proposons dans cet article un modèle de représentation des connaissances temporelles adapté au travail sur les documents historiques. Ce modèle est basé sur la notion de fluent que l'on représente dans des graphes...
متن کاملUn modèle de bibliothèque numérique collaborative - ARMARIUS
RÉSUMÉ. Les manuscrits anciens numérisés représentent un contenu spécifique pour les bibliothèques numériques. Les utilisateurs travaillant sur ce type de documents ont besoin de systèmes d’assistance et d’espaces de travail collectif pour interpréter, annoter et transcrire ces manuscrits. Dans cet article, nous présenterons un modèle de bibliothèque numérique spécialement conçu pour des manusc...
متن کاملModèle probabiliste pour l'extraction de structures dans les documents web
RÉSUMÉ. Le développement des systèmes de gestion de contenu a profondément changé la nature du web : de plus en plus de documents sont créés automatiquement et leur mise en page reflète leur structure logique. Dans ce travail, nous montrons que l’information contenue dans la mise en page est suffisante pour inférer une structure sémantiquement riche, ce qui ouvre la voie à de nombreuses applica...
متن کاملUne nouvelle approche pour indexer les documents manuscrits anciens Une nouvelle approche pour indexer les documents manuscrits anciens
Résumé : Dans cet article nous présentons une architecture pour la description et la recherche de documents manuscrits anciens. Nous utilisons une décomposition en Curvelets des images pour indexer les fragments linéaires de l’écriture. Appartenant à la famille des ondelettes, cette transformée nous permet d’avoir plusieurs niveaux de détails. Le schéma général consiste à analyser les orientati...
متن کاملApprentissage neuro-symbolique pour la RI coopérative, adaptative et évolutive : le modèle multi-agents SARCI
RÉSUMÉ. Dans cet article nous proposons un modèle pour un SRI qui prend en compte la complexité de la requête de l’utilisateur en proposant de la décomposer en différents points de vue. Nous proposons également de considérer les documents du corpus suivant des angles différents et des structures diverses. Pour prendre en compte le caractère évolutif des connaissances liées aux documents et aux ...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید
ثبت ناماگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید
ورودعنوان ژورنال:
- Document Numérique
دوره 16 شماره
صفحات -
تاریخ انتشار 2013